像深神网络(DNN)这样的监督学习的现代方法通常隐含地假设观察到的反应在统计学上是独立的。相反,相关数据在现实生活中的大规模应用中很普遍,典型的相关来源包括空间,时间和聚类结构。这些相关性要么被DNN忽略,要么为特定用例开发了临时解决方案。我们建议使用混合模型框架来处理DNN中的相关数据。通过将相关结构的效果视为随机效应,混合模型能够避免过度拟合的参数估计,并最终产生更好的预测性能。混合模型和DNN结合的关键是使用高斯阴性对数似然(NLL)作为一种自然损耗函数,该函数用包括随机梯度下降(SGD)在内的DNN机械最小化。由于NLL不像标准DNN损失函数那样分解,因此SGD与NLL的使用呈现出一些理论和实施挑战,我们要解决。在各种模拟和真实数据集的各种相关方案中,我们称之为LMMNN的方法可以提高自然竞争对手的性能。我们的重点是回归设置和表格数据集,但我们还显示了一些分类结果。我们的代码可在https://github.com/gsimchoni/lmmnn上找到。
translated by 谷歌翻译
我们提出了一种使用未标记数据来设计半导体风险最小化(ERM)学习过程的半监督学习(SSL)变体的一般方法。专注于广义线性回归,我们分析了我们SSL方法提高预测性能的有效性。关键的想法是仔细考虑NULL模型作为竞争对手,并利用未标记的数据来确定SSL优于监督学习和空模型的信号噪声组合。然后,我们基于信号和噪声的估计以自适应方式使用SSL。在与高斯协变者线性回归的特殊情况下,我们证明了非自适应SSL版本实际上无法同时在监督估计器和空模型上改善,超出可忽略的O(1 / N)项。另一方面,在这项工作中提供的自适应模型,可以在各种设置下同时实现对两个竞争对手的重大改进。这是通过广泛的模拟凭经验显示的,并扩展到其他场景,例如非高斯协变量,错过的线性回归或具有非线性链路功能的广义线性回归。
translated by 谷歌翻译
有监督的基于深度学习的方法已应用于以任务为导向的对话框,并在有足够数量的培训示例可用时对有限的域和语言应用有效。在实践中,这些方法遭受了域驱动设计和资源不足的语言的缺点。域和语言模型应该随着问题空间的发展而增长和变化。一方面,对转移学习的研究证明了基于多语言变压器模型学习语义丰富的表示的跨语性能力。另一方面,除了上述方法之外,元学习还能够开发任务和语言学习算法,能够实现泛滥。在这种情况下,本文提出了使用典型的神经网络和基于多语言变压器的模型来研究使用协同进行几次学习的跨语性可传递性。自然语言的实验理解多亚提斯++语料库的任务表明,我们的方法基本上改善了低资源和高资源语言之间观察到的转移学习表现。更普遍地说,我们的方法证实,可以将具有特定语言的有意义的潜在空间推广到使用元学习的情况下看不见和资源不足的潜在空间。
translated by 谷歌翻译
在过去的五年中,基于自动变压器的体系结构的兴起导致了许多自然语言任务的最新表现。尽管这些方法越来越受欢迎,但它们需要大量的数据和计算资源。在数据范围的应用程序条件下,在资源不足的语言上,基准测试方法仍然非常需要对方法进行基准测试。大多数预训练的语言模型都使用英语进行了大规模研究,其中只有少数在法语上进行了评估。在本文中,我们提出了一个统一的基准测试,重点是评估模型质量及其对两个法语口语理解任务的生态影响。尤其是我们基于13个完善的基于变压器的模型基于法语的两个可用语言理解任务:媒体和ATIS-FR。在此框架内,我们表明紧凑的模型可以与较大的模型达到可比的结果,而生态影响却大大降低。但是,此假设是细微的,取决于考虑的压缩方法。
translated by 谷歌翻译
对于许多任务,基于变压器的体系结构已经实现了最新的结果,从而导致实践从使用特定于任务的架构到预先训练的语言模型的微调。持续的趋势包括具有越来越多的数据和参数的培训模型,这需要大量资源。它导致了强有力的搜索,以提高基于仅针对英语评估的算法和硬件改进的算法和硬件改进。这引发了有关其可用性的疑问,当应用于小规模的学习问题时,对于资源不足的语言任务,有限的培训数据可用。缺乏适当尺寸的语料库是应用数据驱动和转移学习的方法的障碍。在本文中,我们建立了致力于基于变压器模型的可用性的最新努力,并建议评估这些改进的法语表现,而法语的效果很少。我们通过通过数据增强,超参数优化和跨语性转移来调查各种培训策略来解决与数据稀缺有关的不稳定。我们还为法国弗拉伯特(Fralbert)引入了一种新的紧凑型模型,该模型在低资源环境中被证明具有竞争力。
translated by 谷歌翻译